随着机器学习(ML)模型越来越多地被部署在高风险应用程序中,决策者提出了更严格的数据保护法规(例如GDPR,CCPA)。一个关键原则是``被遗忘的权利'',它使用户有权删除其数据。另一个关键原则是实现可操作的解释的权利,也称为算法追索权,使用户可以逆转不利的决定。迄今为止,尚不清楚这两个原则是否可以同时进行操作。因此,我们在数据删除请求的背景下介绍和研究追索权无效的问题。更具体地说,我们从理论上和经验上分析流行的最先进算法的行为,并证明如果这些算法产生的记录可能会无效,如果少数数据删除请求(例如1或2)保证书(例如1或2)预测模型的更新。对于线性模型和过度参数化的神经网络的设置 - 通过神经切线内核(NTK)进行了研究 - 我们建议一个框架来识别最小的关键训练点的最小值,当删除时,它将导致最大程度地提高其最大程度的分数。无效的回流。使用我们的框架,我们从经验上确定,从训练集中删除2个数据实例可以使流行的最先进算法最多无效所有回报的95%。因此,我们的工作提出了有关``被遗忘的权利''的背景下``可行解释权''的兼容性的基本问题。
translated by 谷歌翻译
现代机器学习系统越来越多地以广泛的个人数据收集为特征,尽管回报降低并增加了这种做法的社会成本。然而,数据最小化是欧盟一般数据保护法规('GDPR')中列出的核心数据保护原则之一,并要求仅处理足够,相关且仅限于必要物品的个人数据。但是,由于缺乏技术解释,该原则的采用有限。在这项工作中,我们以机器学习和法律的文献为基础提出FIDO,这是抑制数据过度收集的框架。 Fido学会了基于与系统性能相关的数据最小化的解释来限制数据收集。具体而言,Fido通过迭代更新性能曲线的估计值或数据集大小和性能之间的关系,从而提供了数据收集,以停止标准。 FIDO通过分段功率定律技术估算性能曲线,该技术在整个数据收集过程中分别对算法性能的不同阶段进行建模。经验实验表明,该框架会产生准确的性能曲线和数据收集,从而在数据集中停止标准并功能采集算法。我们进一步证明,许多其他曲线家庭系统地高估了其他数据的回报。在设计数据最小化框架时,我们的调查结果和分析提供了对相关考虑因素的更深入的见解,包括主动功能获取对单个用户的影响以及用户特定数据最小化的可行性。我们以实施数据最小化的实用建议得出结论。
translated by 谷歌翻译
本文确定了数据驱动系统中的数据最小化和目的限制的两个核心数据保护原理。虽然当代数据处理实践似乎与这些原则的赔率达到差异,但我们证明系统可以在技术上使用的数据远远少于目前的数据。此观察是我们详细的技术法律分析的起点,揭示了妨碍了妨碍了实现的障碍,并举例说明了在实践中应用数据保护法的意外权衡。我们的分析旨在向辩论提供关于数据保护对欧盟人工智能发展的影响,为数据控制员,监管机构和研究人员提供实际行动点。
translated by 谷歌翻译
该调查侧重于地球系统科学中的当前问题,其中可以应用机器学习算法。它概述了以前的工作,在地球科学部,印度政府的持续工作,以及ML算法的未来应用到一些重要的地球科学问题。我们提供了与本次调查的比较的比较,这是与机器学习相关的多维地区的思想地图,以及地球系统科学(ESS)中机器学习的Gartner的炒作周期。我们主要关注地球科学的关键组成部分,包括大气,海洋,地震学和生物圈,以及覆盖AI / ML应用程序统计侦查和预测问题。
translated by 谷歌翻译
这篇研究论文提出了COVID-19监测和响应系统,以确定医院患者的数量激增以及关键设备(如东南亚国家的呼吸机),以了解医疗机构的负担。这可以通过资源计划措施来帮助这些地区的当局,以将资源重定向到模型确定的地区。由于缺乏有关医院患者涌入的公开可用数据,或者这些国家可能面临的设备,ICU单元或医院病床的短缺,我们利用Twitter数据来收集此信息。该方法为印度的各州提供了准确的结果,我们正在努力验证其余国家的模型,以便它可以作为当局监控医院负担的可靠工具。
translated by 谷歌翻译